Analítica de datos aplicada a estudios sobre desarrollo

Introducción a al paquete R

Sobre Mi

PhD en Estadística, MSc en Analytics & Big Data, MSc en Estadística. Con 20 años de experiencia, actual director de analítica en el CNC, miembro del comité de expertos en pobreza en el DANE y consultor de la División de Estadística de la CEPAL. Ex-decano de la Facultad de Estadística USTA, ex-director de operaciones en el ICFES, PM CEV …

Puedes encontrarme en:

ORGANIZACIÓN DE DATOS

Proceso de analítica

Wickham, H. y otros (2023)

Trabajando con R

Organización y proyectos en R

  • Facilita entornos colaborativos - reproducible y replicable
  • Evite la asignación de rutas de trabajo setwd(mi/ruta/)
  • Cree un R-project y solo revise getwd()
  • Organice su espacio de trabajo:

Organización de datos

Una de las maneras más sencillas de transformar, organizar y resumir los datos es usando el paquete dplyr

Organización de datos




  • dplyr es del entorno tidyverse
  • Pipeline: |> o %>%
  • Seleccionar filas: filter(condición)
  • Seleccionar columnas: select(var1, var2, ...)
  • Ordenar conjunto de datos: arrange(var) o arrange(-var)
  • Crear nuevas comunas: mutate(operación)
  • Agrupar o resumir: summarise()

Operador de tubería |>, %>%

Permite realizar varias operaciones antes de guardar el resultado en un objeto

1 |> 
  sum(2, 3)
[1] 6
25 |> 
  sqrt()
[1] 5
"Bienvenid@s" |> 
    paste("al curso de") |> 
    paste("Analítica de Datos")
[1] "Bienvenid@s al curso de Analítica de Datos"

Seleccionar filas

Allison Horst

Operadores de comparación en R

Operador Definición
< es menor que
<= es menor o igual que
> es mayor que
>= es mayor o igual que
== es exactamente igual a
!= es diferente de

Operadores lógicos en R

Operador Definición
x & y x Y y
x \| y x O y
is.na(x) x es NA (valor faltante)
!is.na(x) x no es NA
x %in% y está x en y
!(x %in% y) no está x en y

Ejemplo

Crear un subconjunto de datos desde la ENSIN con los registros de Bogotá y que sean personas de estrato 3 o menos.

library(pacman)

p_load(tidyverse, haven)

url <- "https://github.com/jgbabativam/AnaDatos/raw/main/datos/ENSIN.sav"
ensin <- read_sav(url)

#glimpse(ensin)

#-->  Filtro de registros de Bogotá y estrato menor o igual que 3

df_filt <- ensin |> 
           filter(departamento == 11 & Estrato <= 3)

nrow(df_filt)
[1] 1111

Seleccionar columnas

El verbo select(var1, var2, ...) permite conservar solo las variables de interés.


df_filt <- ensin |> 
           filter(departamento == 11 & Estrato <= 3) |> 
           select(llavehog, llaveper, region, departamento, Estrato, edad, sexo)

head(df_filt)
# A tibble: 6 × 7
  llavehog llaveper   region     departamento Estrato   edad      sexo     
  <chr>    <chr>      <dbl+lbl>  <dbl+lbl>    <dbl+lbl> <dbl+lbl> <dbl+lbl>
1 46010101 4601010103 5 [Bogotá] 11 [Bogotá]  3         32        2 [Mujer]
2 46020101 4602010104 5 [Bogotá] 11 [Bogotá]  2         13        2 [Mujer]
3 46020101 4602010105 5 [Bogotá] 11 [Bogotá]  2          6        2 [Mujer]
4 46020201 4602020103 5 [Bogotá] 11 [Bogotá]  2          0        2 [Mujer]
5 46020201 4602020105 5 [Bogotá] 11 [Bogotá]  2          0        2 [Mujer]
6 46020301 4602030103 5 [Bogotá] 11 [Bogotá]  2         16        2 [Mujer]

GRACIAS!

Referencias

  • R for data science. Section 3. Data visualization. Disponible aquí

  • Dougherty, J. and Ilyankou, I. (2022) Hands-On Data Visualization. Interactive Storytelling from Spreadsheets to Code. Section 6. Chart Design Principles. Disponible aquí

  • Williams, G. (2022) Data Science Desktop Survival Guide. Togaware. Disponible aquí Chapter 2 introducing R

  • Jadey Ryan. Reproducible reports and presentations with Quarto. Disponible aquí

Citación y derechos de autor

Este material ha sido creado por Giovany Babativa-Márquez y es de libre distribución bajo la licencia Creative Commons Attribution-ShareAlike 4.0.

Si se copia parcial o totalmente, debe citar la fuente como:

Babativa-Márquez, J.G. Materiales del curso de Analítica de Datos. URL: https://github.com/jgbabativam/AnaDatos.